草庐IT

Hadoop : NoSuchMethodException

全部标签

amazon-web-services - Hadoop配置属性

在我的Spark代码中,我必须在HadoopConfiguration中设置ACCESS_KEY和SECRET_KEY才能访问AWS-S3。在互联网上,我找到了多种设置这些属性的方法。例如样式#1,sc.hadoopConfiguration.set("fs.s3n.access.key",AWS_ACCESS_KEY)sc.hadoopConfiguration.set("fs.s3n.secret.key",AWS_SECRET_KEY)样式#2,sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",AWS_ACCESS_KEY)sc

hadoop - Apache Airflow 分布式处理

我对ApacheAirflow的架构感到困惑。如果我知道,当您在oozie中执行hql或sqoop语句时,oozie会将请求定向到数据节点。我想在ApacheAirflow中实现同样的目标。我想执行shell脚本、hql或sqoop命令,并且我想确保我的命令正在由数据节点分布式执行。Airflow有不同的执行器类型。我应该怎么做才能同时在不同的数据节点上运行命令? 最佳答案 您似乎想在分布式工作人员上执行您的任务。在这种情况下,请考虑使用CeleryExecutor。CeleryExecutorisoneofthewaysyouca

hadoop - Wordcount Nonetype 错误 pyspark-

我正在尝试进行一些文本分析:defcleaning_text(sentence):sentence=sentence.lower()sentence=re.sub('\'','',sentence.strip())sentence=re.sub('^\d+\/\d+|\s\d+\/\d+|\d+\-\d+\-\d+|\d+\-\w+\-\d+\s\d+\:\d+|\d+\-\w+\-\d+|\d+\/\d+\/\d+\s\d+\:\d+','',sentence.strip())#datesremovedsentence=re.sub(r'(.)(\/)(.)',r'\1\3',sen

hadoop - 如何将 janusgraph 与现有的 hadoop 集群集成

我是大数据的新手,目前正在努力将Janusgraph集成到现有的hadoop集群中。能否请您告诉我如何执行此操作,或者请提供资源链接。 最佳答案 由于您刚刚开始使用JanusGraph,因此您应该从位于http://docs.janusgraph.org/latest/的官方文档开始。JanusGraph需要存储后端。有几个支持storagebackends.ApacheHadoop本身并不是JanusGraph的存储后端。ApacheHBasestoragebackend很可能是您可能拥有的。

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

hadoop - 如何将我的数据从本地 HDFS 安全地传输到 Google Cloud Storage?

我在本地HDFS安装中有大量数据。我想将其中一些移动到GoogleCloud(云存储),但我有一些顾虑:我实际上如何移动数据?我担心在公共(public)互联网上移动它将数据从我的HDFS存储安全地移动到CloudStorage的最佳方法是什么? 最佳答案 要将数据从本地Hadoop集群移动到GoogleCloudStorage,您可能应该使用GoogleCloudStorageconnectorforHadoop.您可以按照installdirections在任何集群中安装连接器.请注意,GoogleCloudDataproc集群

file - hadoop -appendToFile 与 hadoop -put 在用于将流数据连续更新到 hdfs 时有什么区别

根据hadoop源代码,从类中提取了以下描述-appendToFile"Appendsthecontentsofallthegivenlocalfilestothegivendstfile.Thedstfilewillbecreatedifitdoesnotexist."放"Copyfilesfromthelocalfilesystemintofs.Copyingfailsifthefilealreadyexists,unlessthe-fflagisgiven.Flags:-p:Preservesaccessandmodificationtimes,ownershipandthemo

hadoop - Hadoop 映射器如何处理部分溢出到下一个 block 的记录?

我正在尝试详细学习MapReduce,尤其是以下查询。众所周知,HDFS中的数据被分成block,通常Mapper一次处理一个block;我们可能会遇到record溢出到另一个block的情况;例如:数据集:“你好,你好吗”;此数据可能会溢出到两个不同的block中。block1:hello,howablock2:reyoudoing现在,如果Mapper在Block1上工作,mapper如何从block1获取已经溢出到Block2的“完整”记录?谁能帮我理解一下? 最佳答案 它适用于可以作为多个block存储在HDFS上的文件。然

apache-spark - 使用 Spark 写入外部 Hadoop

我正在使用Java-Spark。我正在尝试写入外部HDFS目录,如下所示:df.write().mode(mode).save("hdfs://myservername:8020/user/path/to/hdfs");并得到一个异常(exception)hostdetails:localhostis:...destinationhostis:...如何从Spark写入“外部”hdfs目录而不写入本地Hadoop/HDFS?谢谢 最佳答案 检查HDFSNamenode主机名是否可以从Spark集群访问,您也可以使用ip地址。hdfs

java - 在运行 hadoop 分布式模式时一直失败

我被这个问题困扰了很长时间。我尝试在分布式节点中运行一些东西。我有2个数据节点和一个带有namenode和jobtracker的主节点。我不断在每个节点的tasktracker.log中收到以下错误从站的hadoop.log中出现这个错误:2012-01-0310:20:36,732WARNmapred.ReduceTask-attempt_201201031954_0006_r_000001_0addinghostlocalhosttopenaltybox,nextcontactin4seconds2012-01-0310:20:41,738WARNmapred.ReduceTask